deepseek推理

Nature | 强化学习提升DeepSeek推理能力

梁文锋等介绍如何结合强化学习(RL)[1]提升模型推理能力，把DeepSeek-V3 Base[2]升级到DeepSeek-R1的工作近日发表在Nature[3]。